يادگيري تقويتي براساس معماري عملگر- نقاد در سيستم هاي چند عامله براي کنترل ترافيک محمد سعدي مسگري 2 حميد مطيعيان 1 محمد اصالني *1 9 دانشجوي دکتري سیستمهاي اطالعات مکاني- دانشکده مهندسي نقشهبرداري- دانشگاه صنعتي خواجه نصیرالدين طوسي نشريه علمي- پژوهشي علوم و فنون نقشه برداري دوره پنجم شماره maslani@mail.kntu.ac.ir 2 دانشیار گروه سیستمهاي اطالعات مکاني- دانشکده مهندسي نقشهبرداري- دانشگاه صنعتي خواجه نصیرالدين طوسي )عضو قطب علمي مهندسي فناوري اطالعات مکاني( mesgari@kntu.ac.ir 3 )تاريخ دريافت تیر 4931 تاريخ تصويب دی 4931( 9314 ماه بهمن چکيده در نیمه دوم قرن گذشته اغلب جوامع شاهد شروع پديده اي بنام ترافیک شهري در خود بوده اند که علت رخداد چنین پديده اي عبور تعداد زيادي خودرو در زمان يکسان از يک زير ساخت حمل و نقلي يکسان مي باشد. پديده ترافیک شهري داراي پیامدهاي اقتصادي و محیط زيستي کامال شناخته شده اي از جمله آلودگي هوا کاهش در سرعت افزايش زمان سفر افزايش مصرف سوخت و حتي افزايش تصادفات مي باشد. يکي از راه هاي اقتصادي براي مديريت کردن افزايش تقاضاي سفر و جلوگیري از ترافیک شهري افزايش کارايي زير ساخت هاي موجود از طريق سیستم هاي هوشمند کنترل ترافیک مي باشد. از سوي ديگر کنترل ترافیک به دلیل طبیعت توزيع يافته و خودمختار آن توسط سیستم هاي چند عامله به خوبي قابل مدلسازي مي باشد. رانندگان و چراغ هاي راهنمايي را مي توان به عنوان عامل هايي که رفتارهاي هوشمندانه اي از خود نشان مي دهند در نظر گرفت. براي ايجاد چنین رفتارهايي نیاز است که دانش الزمه از محیط اطراف در ذهن عامل قرار داده شود اما به دلیل پیچیدگي هاي باالي موجود در الگوهاي ترافیک شهري و ناايستا بودن اغلب محیط هاي ترافیکي قرار دادن يک دانش اولیه از محیط در ذهن عامل ها بسیار دشوار و غیر عملي مي باشد. بنابراين نیاز به يک روشي که عامل در طول تعامل با محیط بتواند دانش الزمه را بدست آورد کامال ضروري است که در اين تحقیق براي حل اين چالش از يادگیري تقويتي استفاده شد. هدف مقاله حاضر بهبود استراتژي هاي کنترل ترافیک و به طور خاص کنترل هوشمند چراغ هاي راهنمايي از طريق توسعه تکنیک هاي يادگیري تقويتي در سیستم هاي چند عامله است. معماري 9 به عنوان يک معماري رايج در يادگیري تقويتي که داراي ساختار حافظه جداگانه اي هم براي سیاست و هم براي تابع عملگر نقاد ارزش است مورد استفاده قرار گرفت. نتايج اين تحقیق نشان دادند که کنترل هوشمند چراغ هاي راهنمايي منجر به کاهش %23 طول صف و %91 زمان سفر نسبت به کنترل غیر هوشمند چراغ هاي راهنمايي براي يک تقاطع منفرد مي شود. واژگان کليدي: سیستم هاي چند عامله يادگیري تقويتي معماري عملگر - نقاد و کنترل ترافیک ۱ Actor Critic * نويسنده رابط 233
1- مقدمه يادگیري تقويتي براساس معماري عملگر- نقاد در سیستم هاي چند... 9 يکي از رويکردهايي است تئوري سیستم هاي پیچیده که در دو دهه اخیر توجه محققین را در کنترل ترافیک به خود جلب سیستم نموده است کنترل ترافیک.]9[ در اين رويکرد رفتار يک از طريق بررسي اجزاء )پروسه هاي( تشکیل دهنده آن و تعامالت محلي میان آنها که 2 مي شود تحلیل مي گردد منجر به بروز الگوهاي تظاهري 3 بر روي خروجي ]2[. در اين تئوري اثرات عدم قطعیت ها کامال لحاظ مي شوند. سیستم هاي پیچیده را مي توان به صورت هاي مختلفي بررسي نمود که يکي ازکاربردي ترين آنها سیستم هاي چند عامله است ]3[ که در اين سیستم هاي عامل نقشي اساسي بازي را مي کند. به طور ساده عامل ها موجوديت هايي هستند که در محیط قرار گرفته آن را درک مي کنند و در آن عمل مي نمايند ]3[. علیرغم ديدگاه هاي مختلف پیرامون عامل تقريبا همگان بر اين 1 باورند که عامل خود مختار 4 پیش فعال 5 واکنشي و 7 است. عامل ها براي رسیدن به اهداف خود نیاز اجتماعي به تعامل با يکديگر دارند. به دلیل پیچیدگي هاي باال در محیط هاي ترافیک شهري و چند عامله بودن ذاتي آن ها استفاده از سیستم هاي ديدگاه ترافیک معقول به نظر مي رسند ]8-4[. نکته مهم ديگري در کنترل چند عامله که در حوزه هوش مصنوعي و يادگیري ماشین به آن توجه ويژه اي شده است توانايي تصمیم گیري خود مختار عامل ها در محیط هاي نسبت ا پیچیده است. عامل ها بايد بتوانند براساس دانشي که در اثر تعامل با محیط کسب مي کنند و بدون کنترل خارجي رفتار عقالني از خود بروز دهند. از ديدگاه ديگر در بسیاري از موارد عامل ها فاقد دانش کافي اولیه از محیط مي باشند 8 بودن محیط نیاز است که عامل عمل و يا به دلیل ناايستا خود را متناسب با شرايط محیط و براي رسیدن به اهداف خود انتخاب نمايد. از سوي ديگر در اغلب مسائل از جمله کنترل ترافیک دسترسي اولیه به جواب و سیگنال کنترلي بهینه امکان پذير نمي باشد به همین دلیل بايد از روش هايي که در آن سرپرستي احتیاج به دانش اولیه دقیق ندارد استفاده نمود. بنابراين مسئله مورد بررسي در اين تحقیق اضافه نمودن توانايي يادگیري به عامل ها بدون دسترسي اولیه به جواب است. همچنین اهمیت مسئله اين است که عامل مي تواند بدون نیاز داشتن به مدل محیط دانش الزمه را از محیط بدست آورد. يادگیري تقويتي يک الگوريتم مدرن هوشمند است که به جهت دارا بودن قابلیتهايي همچون عدم نیاز به خروجي مطلوب آموزش با استفاده از يک معیار اسکالر راندمان امکان آموزش برخط و درجه کاوش باال گزينه مناسبي جهت کنترل ترافیک مي باشد ]1[. در واقع در يادگیري تقويتي به عامل گفته نمي شود که عمل صحیح در هر وضعیت از محیط چیست بلکه فقط با استفاده از يک معیار اسکالر که سیگنال تقويتي نامیده مي شود میزان خوب بودن عمل به عامل نشان داده مي شود. عامل با در دست داشتن اين اطالعات سعي در پیدا نمودن عمل بهینه مي نمايد که اين ويژگي يکي از نقاط يادگیري تقويتي هاي الگوريتم قوت به شمار مي آيد. الگويتم هاي يادگیري تقويتي متفاوتي در طول زمان ارائه شده اند که اين الگوريتم ها را مي توان به سه دسته تقسیم 99 و 3 -عملگر- نقاد 90 9 -عملگر- تنها 2 -نقاد 1 - تنها نمود ]90[. از آنجائیکه معماري عملگر- نقاد داراي ويژگي هاي همگرايي مناسب تري در مقايسه با دو روش ديگر است و به طور همزمان از مزيت هاي روش هاي عملگر- تنها و نقاد- تنها بهره مي برد ]1[ در اين تحقیق از اين معماري مورد استفاده قرار گرفت. اين معماري داراي دو بخش عملگر و نقاد بوده که بخش نقاد براي تقريب تابع ارزش و بخش عملگر براي تولید عمل استفاده مي شود. بخش نقاد مسئول پردازش پاداش هاي دريافتي از محیط و ارزيابي کیفیت سیاست مورد استفاده توسط عامل است و بخش عملگر با بکارگیري اطالعاتي از نقاد پارامترهاي سیاست خود را به روز رساني مي کند ]99[. در تحقیق حاضر که از سیستم هاي چند عامله براي کنترل ترافیک استفاده شده است دو نوع عامل خودمختار متفاوت تعريف شده اند: عامل هاي خودرو )عامل هاي غیر ۹ Actor-Only ۱۰ Critic-Only ۱۱ Actor-Critic ۱ Complex Systems Teory ۲ Emerging Patterns ۳ Uncertainty ٤ Autonomous ٥ Proactive ٦ Reactive ۷ Social ۸ Nonstationary 234
فعال ) 9 که داراي رفتارهايي از جمله شتاب گرفتن ترمز کردن و سبقت گرفتن هستند و عامل هاي چراغ راهنمايي )عامل هاي فعال ) 2 که داراي توانايي يادگیري عملگر- عملگر- نقاد تقويتي مي باشند. چالش هاي بکارگیري معماري نقاد در سیستم هاي چند عامله در هر مسئله شامل انتخاب عمل مناسب تعريف حالت ها و تعريف تابع يادگیري تقويتي مي باشد که در اين تحقیق راهکار مناسبي براي موارد مذکور در مسئله کنترل ترافیک ارائه شده است. روش پیشنهادي در دو سناريوي متفاوت مورد ارزيابي قرار گرفت. در سناريوي اول يک چراغ راهنمايي که داراي توانايي يادگیري تقويتي است سعي در کنترل يک تقاطع منفرد مي نمايد و در سناريوي دوم همزمان نشريه علمي- پژوهشي علوم و فنون نقشه برداري دوره پنجم شماره 3 بهمن ماه 9314 تقاطع 1 توسط 1 چراغ راهنمايي هوشمند کنترل مي شوند. براي شبیه سازي ترافیکي از نرم افزار و قابلیت AIMSUN توسعه آن توسط زبان برنامه نويسي ++C استفاده شد. روش ارائه شده در اين تحقیق با روش کنترل غیر هوشمند تقاطع ها مقايسه شد و نتايج نشان دادند که کنترل هوشمند چراغ هاي راهنمايي منجر به کاهش %23 طول صف و %91 زمان سفر نسبت به کنترل غیر هوشمند چراغ هاي راهنمايي شده است. مقاله حاضر در 7 بخش ساختار دهي شده است. در بخش 2 پیشینه تحقیق در بخش 3 مباني نظري تحقیق در بخش 4 نحوه انجام پیاده سازي و در بخش 5 نتايج پیاده سازي در بخش 1 بحث و اعتبار سنجي نتايج و در بخش 7 نتیجه گیري آورده شده است. 2- پيشينه تحقيق در زمینه کنترل چراغ هاي راهنمايي از طريق روش هاي کالسیک مي توان به ابزار ]92[ سامانه ]95[ 5 OPAC Transyt ]94[ 4 SCAT 7 RHODES ]93[ ]91[ و هايSCOOT 3 1 PRODYNE و ]97[ اشاره نمود. ابزار Transyt 8 يک روش برون خط براي تعیین زمان بهینه مجموعه اي از چراغ هاي راهنمايي زمان ثابت بر اساس 1 الگوريتم تپه نوردي است. ورودي هاي اين ابزار شامل هندسه خیابان ها جريان ترافیکي زمان سفر در هر خیابان نرخ گردش به جهات مختلف در هر تقاطع و مجموعه اي از زمان هاي سبز و قرمز اولیه براي هر چرخه است. نقطه ضعف اين روش محاسبه زمان بهینه چراغ ها براساس شرايط ترافیکي کامال استاتیک مي باشد و اين در حالي است که شرايط ترافیکي در روزها و ساعات مختلف روز با يکديگر متفاوت هستند. سامانه SCOOT عملکردش شبیه Transyt است با اين تفاوت که قابلیت لحاظ نمودن شرايط ترافیکي را دارا مي باشد. سامانه 90 متفاوت به صورت بر خط همانند سامانه SCAT SCOOT عمل مي نمايد و تفاوتش با براساس داده هاي بر خط ترافیکي SCOOT بکار گیري ساختار سلسله مراتبي و توزيع يافته است. در اين سامانه کل منطقه به چندين زير ناحیه تقسیم مي شود که هر زير ناحیه داراي 9 تا 90 تقاطع مي باشد و هر زير ناحیه به صورت مستقل توسط يک واحد مجزا کنترل مي شود. سامانه هاي OPAC PRODYN و RHODES به صورت توزيع يافته عمل مي نمايند و نحوه عملکرد آنها به اين صورت است که در هر بازه زماني مشخص )مثال 5 ثانیه( چراغ تصمیم مي گیرد که آيا فاز جاري را تغییر دهد يا خیر در خیابان هاي منتهي به هر تقاطع تعدادي سنسور قرار داده مي شود که وضعیت ترافیکي آن خیابان ها را براي چراغ راهنمايي ارسال مي کنند. پیچیدگي هاي باالي محاسباتي از جمله سامانه ها به حساب مي آيد ]98[. اين نقاط ضعف را براي 92 در سال 2000 برنامه ريزي پويا 99 ويرينگ کنترل چراغ هاي راهنمايي به منظور کاهش زمان انتظار استفاده نمود. در اين تحقیق فرض مي شود که چراغ ها و خودروها داراي توانايي ارتباط برقرار کردن با يکديگر مي باشند و همچنین چراغ هاي راهنمايي از مقصد خودروها اطالع دارند. خودروها زمان متوسط انتظار خود را در طول يادگیري تخمین زده و اين زمان را به چراغ تقاطع پیشرو ارسال مي کنند و چراغ مسیري را سبز مي کند که در آن مجموع زمان انتظار خودروها بیش از ساير مسیرها باشد. نتايج اين تحقیق نشان مي دهد که روش پیشنهادي زمان ۹ Hill-Climbing ۱۰ Online ۱۱ Wiering ۱۲ Dynamic programming ۱ Passive Agents ۲ Active Agents ۳ Split Cycle Offset Optimization Tecnique ٤ Sydney Coordinated Adaptive Traffic System ٥ Optimized Policies for Adaptive Control ٦ ProgrammationDynamique ۷ Real-Time, Hierarcical, Optimized, Distributed, and Effective System ۸ Offline 235
يادگیري تقويتي براساس معماري عملگر- نقاد در سیستم هاي چند... انتظار را %22 نسبت به حالتي که از چراغ هاي زمان ثابت استفاده شود کاهش مي دهد ]91[. فرضیات بکار رفته در اين مقاله با توجه به زير ساخت هاي موجود در خیابان ها و چراغ ها غیر عملي مي باشد. از طرف ديگر استفاده از 9 برنامه ريزي پويا که يک روش مدل مبنا در يادگیري تقويتي است پیچیدگي هاي غیر ضروري را در مقايسه با 2 وارد مي کند. روش هاي مستقل از مدل 3 عبدلهاي و همکاران در سال روش يادگیري 2003 تقويتي را براي يک تقاطع منفرد داراي 2 فاز بکار گرفتند. ايشان طول صف خودروهاي منتظر در پشت چراغ راهنمايي را به عنوان حالت محیط که توسط عامل قابل اندازه گیري مي باشد در نظر گرفتند. عامل مي تواند زمان سبز چراغ را تمديد و يا آنرا به فاز بعدي تغییر دهد به گونه اي که تعداد ماشین هاي منتظر در پشت تقاطع مینیمم شوند. ايشان از سه جريان ورودي ترافیکي يکپارچه نسبت ثابت و متغیر براي تست کردن عملکرد روش پیشنهادي تحت شرايط ترافیکي متفاوت استفاده نمودند ]20[. 4 کامپونوگارا 5 و کراس 2003 در سال از الگوريتم براي کنترل دو تقاطع مجاور به هم به صورت يادگیري 1 Q مستقل استفاده نمودند. آنها در مقاله خود نشان دادند که کنترل هوشمند چراغ ها با استفاده از يادگیري باعث Q بهبود شگرف عملکرد سیستم در مقايسه با غیر هوشمند بودن چراغ ها خواهد شد ]29[. 7 چوي و همکاران در سال يک ساختار چند 2003 عامله را براي کنترل ترافیک ارائه دادند که در پايین ترين سطح هر عامل کنترل يک تقاطع را بر عهده دارد و در سطح میاني يک عامل چند کنترلر مربوط به تقاطع هاي درون يک منطقه را هماهنگ مي کند. در نهايت در اليه آخر يک عامل مرکزي بر فعالیت همه سیستم نظارت مي کند. در تحقیق ايشان از روش فازي عصبي براي يادگیري استفاده شده است ]22[. 8 و همکاران در سال 2004 از سیستم هاي طبقه بول بندي کننده يادگیر براي کنترل شبکه ترافیکي متشکل از 4 تقاطع استفاده نمودند. در تحقیق ايشان چراغ هاي راهنمايي که توسط يک سیستم طبقه بندي کننده يادگیر کنترل مي شوند در هر تقاطع داراي 2 فاز هستند که يک فاز براي حرکت از شمال به جنوب و فاز ديگر براي حرکت از شرق به غرب است. سیستم کنترل کننده در هر تقاطع زمان فاز بهینه را از طريق استخراج تعدادي قانون اگر-آنگاه بدست مي آورد. نتايج کار ايشان نشان دادند که عملکرد چراغ راهنمايي با بکارگیري سیستم طبقه بندي کننده يادگیر بهبود قابل مالحظه اي در مقايسه با عملکرد چراغ راهنمايي زمان ثابت داشته است ]23[. 1 درسنر 90 و استون 2005 در سال از روشي بر پايه اختصاص دادن فضا در يک تقاطع استفاده نمودند. در روش ايشان خودروها تقاطع پیش روي خود را از سرعت شتاب جهت و زماني که به آن خواهند رسید مطلع مي سازند. تقاطع با استفاده از اطالعات دريافتي از خودروها تعیین مي کند که فضاي الزم براي عبور کدام خودروها وجود خواهد داشت. خودروهايي که فضاي الزم براي عبور را داشته باشند اجازه عبور خواهند داشت اما خودروهاي ديگر بايد سرعت خود را کاهش دهند تا فضاي الزم براي عبور آنها فراهم شود ]24[. فرضیات بکار رفته در اين مقاله با توجه به زير ساخت هاي موجود غیر عملي مي باشد. و همکاران در سال 2090 از يادگیري تقويتي 99 مدينا براي کنترل چراغ هاي راهنمايي استفاده کردند. ايشان براي ايجاد همکاري بین عامل ها در زمان يادگیري از تعداد خودروهاي خارج شده از تقاطع مورد کنترل به سمت تقاطع هاي مجاور استفاده کردند. به اين ترتیب عامل ها عالوه بر در نظر گرفتن تعداد خودروهاي منتظر در مسیرهاي ورودي خود تعداد خودروهايي که در تقاطع هاي مجاور متوقف هستند را به عنوان وضعیت عامل در نظر مي گیرند. با اين تعريف هر عامل در طول يادگیري عالوه بر توجه به وضعیت تقاطع خود وضعیت تقاطع هاي مجاور را در نظر گرفته و رويکردي جامع را در يادگیري خود لحاظ مي کند ]25[. گسسته سازي اعمال و سرعت پايین يادگیري از نقاط ضعف اين تحقیق مي باشد. و همکاران در سال 2090 از يادگیري تقويتي 92 هولي چند هدفه براي کنترل چندين چراغ راهنمايي استفاده ۹ Dresner ۱۰ Stone ۱۱ Medina ۱۲ Houli ۱ Model Based ۲ Free Model ۳ Abdulai ٤ Camponogara ٥ Kraus ٦ Q-Learning ۷ Coy ۸ Bull 236
کردند. اهداف بهینه سازي شامل تعداد توقف هاي خودروها متوسط زمان توقف و حداکثر طول صف خودروها در هر تقاطع است ]21[. تمام منابع آورده شده در فوق جزء بهترين تحقیقات در زمینه هوش مصنوعي و کنترل ترافیک بوده اند. اما در تمام اين منابع محیط ترافیکي شبیه سازي شده کامال ساده و دور از واقعیت هاي موجود مي باشد. در اين تحقیق سعي شده است که شبیه سازي ترافیکي و رفتار رانندگان تا حد امکان به واقعیت نزديک باشند. همچنین در اغلب تحقیقات انجام گرفته از الگوريتم هاي ساده و ابتدايي يادگیري 9 استفاده شده است. تقويتي نظیر يادگیري Q و سارسا نشريه علمي- پژوهشي علوم و فنون نقشه برداري دوره پنجم شماره 3 بهمن ماه 9314 3- مباني نظري تحقيق 1-3- مدل تصميم گيري مارکوف و يادگيري تقويتي يادگیري تقويتي به معناي آموزش آنچه بايد انجام شود چگونگي نگاشت وضعیت ها به عمل- براي ماکزيمم نمودن يک معیار اسکالر راندمان مي باشد. در يادگیري تقويتي تصمیم گیرنده را عامل هوشمند و چیزي که عامل با آن تعامل دارد شامل همه چیز غیر از خود عامل محیط نامیده مي شود. در مسائل يادگیري تقويتي محیط بايد از ديد عامل داراي خاصیت مارکوف باشد. خاصیت مارکوف بدين معني است که حالت بعدي محیط و پاداش دريافتي تنها به عمل و حالت قبلي عامل در محیط بستگي دارد. يک چارچوب رياضي مرسوم براي مسئله يادگیري تقويتي که داراي خاصیت 2 مارکوف است مدل تصمیم گیري مارکوف (MDP) باشد ]27[. مدل تصمیم گیري مارکوف از يک چهارتايي مي {S, A, R a ss, P ss a } محیط A مجموعه اعمال عامل تشکیل شده است که S مجموعه حالت هاي a P ss تحت انجام عمل s به s a آمده در صورت انتقال از حالت فعلي و a R ss احتمال انتقال از حالت متوسط پاداش بدست s به s تحت عمل a است. s t در يادگیري تقويتي در هر گام زماني t عامل حالت از فضاي حالت فضاي عمل متناهي S را مشاهده نموده و عملي را از A s براساس سیاست فعلي اش انتخاب و به محیط اعمال مي کند و در پي آن محیط با احتمال P(s t,a t,s t+1) به حالت جديد يافته و عامل سیگنال تقويتي s از فضاي t+1 S r(s t,a t) داده مي شود دريافت مي کند ]1[. 1+t r را که با انتقال نشان قانوني که عامل با توجه به آن در هر حالت عملي را براي اجرا انتخاب مي کند سیاست مي نامند و معموال با π(s,a) s که نشان دهنده احتمال انتخاب عمل a در حالت است نمايش داده مي شود. مبناي کار در يادگیري تقويتي بر اساس پاداش و جريمه است و هدف پیدا نمودن سیاستي است که منجر به حداکثر کردن مجموع پاداش هاي دريافتي در طول يادگیري شود. بر اين اساس عامل ياد مي گیرد عملي را انتخاب کند که او را به حالتي با بیشترين ارزش برساند. ارزش حالت تحت سیاست s π توسط رابطه 9 تعريف مي شود. به عبارت ديگر ارزش يک حالت کل مقدار پاداشي است که عامل مي تواند بعد از شروع از آن نقطه انتظار دريافت آنرا داشته باشد. V π (s) = E π { γ k r t+k+1 s t = s}, 0 γ 1 k=0 )9( به طور مشابه ارزش زوج وضعیت - عمل سیاست (s,a) که با نماد π Q π (s,a) s تحت نشان داده مي شود برابر با امید رياضي کل پاداش هاي است که اگر عامل در وضعیت a عمل را با سیاست π )2( را انجام دهد و سپس تا پايان انتخاب هاي خود ادامه دهد بدست خواهد آورد )رابطه 2(. Q π (s, a) = E π { k=0 γ k r t+k+1 s t = s, a t = a} هرچه تعداد تجربه ها و تعامل هاي عامل با محیط بیشتر شود تخمین بهتري از توابع ارزش مي توان بدست آورد. حل يک مسئله يادگیري تقويتي به معني پیدا نمودن سیاستي است که ارزش تمام حالت هاي محیط تحت آن سیاست بیشینه شود. در اين تحقیق از معماري عملگر-نقاد براي پیدا نمودن سیاست بهینه استفاده شده است. 2-3- معماري عملگر- نقاد الندا در اين روش يادگیري ساختار حافظه جداگانه اي هم براي سیاست و هم براي تابع ارزش در نظر گرفته مي شود. از آنجائیکه معماري عملگر- نقاد از اصول يادگیري تقويتي تفاضل موقتي استفاده مي نمايد قابلیت پیاده سازي به صورت زمان حقیقي در طي مسیر سیستم را دارا ۱ SARSA ۲ Markov Decision Process (MDP) 237
يادگیري تقويتي براساس معماري عملگر- نقاد در سیستم هاي چند... مي باشد. در اين معماري ساختار سیاست به عنوان عملگر شناخته مي شود زيرا از آن براي تولید عمل استفاده مي شود و ساختار تابع ارزش به عنوان نقاد شناخته مي شود زيرا آن براي نقد اعمال انجام گرفته توسط عملگر بکار گرفته مي شود. يادگیري در معماري عملگر- صورت On-Policy نقاد به است به اين معني که نقاد بايد درباره سیاستي که توسط عملگر دنبال مي شود يادگیري را به طور همزمان انجام دهد. در طول يادگیري در هر گام زماني نقاد يک خطاي تفاضل موقت را تولید و براساس آن يادگیري در عملگر و نقاد انجام مي شود )شکل 9(. بعد از اجراي هر عمل حالت جديد محیط توسط نقاد )رابطه 3( ارزيابي شده و تعیین مي شود که آيا حالت محیط بهتر شده است يا خیر در روابط 4 و 5 α نرخ يادگیري γ نرخ تخفیف λ میزان تاثیر پذيري ارزش حالت هاي ابتدايي اپیزود از ارزش حالت ها و سیگنال هاي انتهايي محیط است. براي 0=λ فقط يک حالت از محیط در گام زماني t مقدار غیر صفر شايستگي دارد و بنابراين فقط ارزش آن حالت به روز مي شود. براي λ مثبت عامل مي بايست در هر گام زماني پیش بیني ها و آثار شايستگي را براي تمام حاالت بروز نمايد و به همین دلیل پیاده سازي با استفاده از λ>0 از نظر محاسباتي سنگین تر از زماني است که مورد 0=λ استفاده قرار گیرد مخصوصا در مواقعي که فضاي حالت بزرگ باشد. به هر حال استفاده از λ مثبت سرعت يادگیري را به طور قابل مالحظه اي افزايش مي دهد. مقدار α در اين تحقیق برابر 0.2 مقدار γ برابر 0.10 و مقدار λ برابر 0.85 انتخاب شدند. احتمال انجام اعمال مختلف توسط سیاست محاسبه مي شود )رابطه 1( که عامل ε-greedy ε نشان دهنده میزان تمايل براي کنکاش ارزش اعمال مختلف در حالت هاي مختلف محیط است. هرچه میزان ε به يک نزديک تر باشد سیاست عامل به تصادفي نزديک تر و تمايل عامل به کنکاش اعمال مختلف افزايش مي يابد. هرچه میزان ε عمل خطاي تفاضل موقت سیاست تابع ارزش حالت پاداش عملگر نقاد حالت به صفر نزديک تر باشد سیاست عامل به حريصانه نزديک تر و تمايل عامل به کنکاش کاهش مي يابد. π t (s, a) = Pr{a t = a s t = s} 1 ε + ε A = { s, if a = argmax a A s P(s, a ) ε, else A s 0 ε 1 )1( )3( شکل در صورت مثبت بودن 9- معماري عملگر- نقاد δ t = r t+1 + γv(s t+1 ) V(s t ) δ t تمايل براي انتخاب عمل انجام شده بايد تقويت شود و در صورت منفي بودن δ t تمايل براي انتخاب عمل انجام شده بايد کاهش يابد. در اين تحقیق براي افزايش سرعت يادگیري روش اثر 9 براي به روز رساني ارزش حالت هاي مختلف شايستگي محیط بکار گرفته شد. در روش اثر شايستگي ارزش حالت هاي مختلف محیط توسط روابط 4 و 5 به روز مي شوند: در رابطه P(s,a) 1 مقادير پارامترهاي سیاست در عملگر هستند که در طول يادگیري تغییر مي کنند و نشان دهنده تمايل براي انتخاب هر عمل محیط a s در حالت است. تقويت کردن و يا ضعیف کردن تمايل براي انتخاب هر عمل مي تواند توسط افزايش يا کاهش در زمان هاي مختلف انجام شود )رابطه 7(. P(s t,a t) P(s t, a t ) P(s t, a t ) + βδ t )7( 2 بوده و داراي يک مقدار در رابطه 7 β پارامتر طول گام مثبت مي باشد. مقدار β در اين تحقیق برابر 900 انتخاب شد. V(s t ) V(s t ) + αδ t e t (s t ), 0 < α < 1 e t (s t ) = { γλe t 1(s), if s s t 0 γ, λ 1 γλe t 1 (s) + 1, if s = s t )4( )5( محیط ۲ Step-Size ۱ Eligibility Trace 238
نشريه علمي- پژوهشي علوم و فنون نقشه برداري دوره پنجم شماره 3 بهمن ماه 9314-1-4 4- پياده سازي دو سناريو در اين تحقیق براي کنترل ترافیک در نظر گرفته شده اند. در سناريوي اول يک چهار راه منفرد که داراي 4 مسیر ورودي است توسط يک چراغ راهنمايي هوشمند چهار فازه با توانايي يادگیري تقويتي کنترل مي شود. اين چهار فاز به ترتیب از چپ به راست در شکل 2 آورده شده اند. در اين سناريوي زمان کل هر چرخه چراغ متغیر بوده اما ترتیب فازها ثابت مي باشند. در ابتداي هر فاز و براساس تعداد ماشین هاي منتظر در هر مسیر ورودي براي فاز جاري مدت زماني به عنوان زمان سبز انتخاب مي شود و بعد از اتمام زمان سبز در هر فاز 5 ثانیه به عنوان زمان زرد قبل از شروع فاز بعدي در نظر گرفته مي شود. تمام خیابان هاي متصل به چهار راه سه خطه بوده و به طول 300 متر مي باشند. براي ارزيابي کامل عملکرد روش پیشنهادي در اين تحقیق بجاي استفاده از جريان ترافیکي ثابت از يک جريان ترافیکي متغیر با زمان استفاده شد. به اين ترتیب که سه نوع نرخ جريان ترافیکي سبک و سنگین Ve 500 نیمه سنگین 750 Ve 9000 در مسیرهاي ورودي به تقاطع وارد Ve مي شوند. همچنین در طول شبیه سازي فرض مي شود که %10 از ماشین ها مسیر مستقیم و %20 گردش به چپ و %20 گردش به راست را انجام مي دهند. همچنین مدت زمان شبیه سازي 800 ساعت در نظر گرفته شد. در سناريوي دوم يک شبکه ترافیکي متشکل از 1 تقاطع که هر تقاطع توسط يک چراغ راهنمايي هوشمند چهار فازه با توانايي يادگیري تقويتي که فاز بندي آن همانند سناريوي اول است مورد بررسي قرار مي گیرد )شکل 3(. همچنین در اين سناريو از سه نوع نرخ جريان ترافیکي 100 براي مسیرهاي Ve 400 و Ve 200 Ve ورودي استفاده شد. در طول شبیه سازي فرض شده است که %33 از ماشین ها مسیر مستقیم %33 گردش به چپ و %33 گردش به راست را انجام مي دهند. شبیه سازي ترافیکي براي 800 ساعت انجام گرفته و طول تمام خیابان ها 250 متر دو خطه با ماکزيمم سرعت 50 کیلومتر بر ساعت مي باشد. محیط شبیه سازي ترافیکي AIMSUN و از زبان برنامه نويسي C++ براي توسعه آن استفاده شد. کنترل ترافيک رفتارها و خصيصه هاي اجزاء مختلف 1-1-4- خودروها رفتار و ويژگي خودروها توسط پارامترهاي حداکثر سرعت حداکثر شتاب افزايشي و حداکثر شتاب کاهشي قابل توصیف هستند. در اين تحقیق حداکثر سرعت حداکثر شتاب افزايشي و حداکثر شتاب کاهشي هر خودرو به ترتیب از توابع توزيع گوسین با میانگین هاي 990 Km m m Km m m 0.5 s 1 s و انحراف از معیارهاي 0.2 90 و 3 2 s 2 و 2 s 2 انتخاب مي شوند. موقعیت سرعت و شتاب خودروها در هر ثانیه در طول شبیه سازي به روز مي شوند. 2-1-4- رانندگان به عنوان عامل هاي هوشمند تصمیمات رانندگان در طول سفر به دو دسته تصمیمات 2 تقسیم مي شود ]28[. تصمیمات 9 و تصمیمات خرد کالن کالن شامل انتخاب مقصد و انتخاب مسیر مناسب براي رسیدن به آن مي باشد. تصمیمات خرد شامل تغییر خط حرکت در يک مسیر سبقت گرفتن انتخاب سرعت مناسب و گردش به راست يا چپ مي باشد. هر راننده شیوه رانندگي مخصوص به خود را دارا مي باشد. سبک رانندگي را مي توان از طريق يک سري پارامترها که به نوعي مشخص کننده ويژگي هاي اخالقي رانندگان هستند تقريب زد. در اين تحقیق از پارامترهاي زير براي تقريب ويژگي هاي اخالقي رانندگان استفاده شده است ]21. 30[: سرعت مطلوب راننده: سرعتي است که راننده تمايل دارد در طول سفر خود با آن حرکت نمايد. مقدار اين سرعت از يک تابع توزيع گوسین با میانگین و انحراف از معیار 990 Km 90 انتخاب مي شود. Km میزان تبعیت از حداکثر سرعت مجاز خیابان ها: مقدار آن به تصادف براي هر خودرو از يک تابع توزيع گوسین با میانگین 9.9 و انحراف از معیار 0.9 انتخاب مي شود. آستانه تحمل راننده: هنگامي که خودرو در موقعیتي قرار دارد که حق تقدم عبور با خودروهاي ديگر است حداکثر ۱ Macro ۲ Micro 239
يادگیري تقويتي براساس معماري عملگر- به اندازه يک بازه زماني مشخص منتظر مي ماند و بعد از آن بازه زماني در صورتي که فضاي مناسب براي عبور پیدا نکند اقدام به عبور از فضاهاي کوچک و غیر ايمن میان خودروهاي ديگر مي کند. مقدار آستانه تحمل براي هر راننده به تصادف از يک تابع توزيع گوسین با میانگین 90 ثانیه و انحراف از معیار 2.5 ثانیه انتخاب مي شود. زمان واکنش راننده : 9 عبارت است از مدت زماني که طول مي کشد تا راننده به تغییرات سرعت خودروي جلويي راهنمايي مقابلش واکنش نشان دهد. اين زمان واکنش فقط براي خودروهايي که متوقف هستند بکارگرفته مي شود که مقدار آن برابر 9.35 ثانیه انتخاب شد. فاکتور حساسیت: هنگامي که خودرو میخواهد سرعت خود را بخاطر محدوديت اعمال شده توسط خودروي جلويي کاهش دهد نیاز دارد که شتاب کاهشي خودرو جلويي را تخمین بزند. میزان درستي تخمین شتاب خودروي جلويي توسط خودروي تعقیب کننده فاکتور نقاد در سیستم هاي چند واکنش نشان دهد. اين زمان برابر 9 ثانیه در نظر گرفته شد. زمان واکنش در حالت توقف : 2 عبارت است از مدت زماني که طول مي کشد تا خودروي متوقف شتاب گرفتن خودروي جلويي به شده يا تغییرات فاز چراغ حساسیت مي گويند که مقدار آن برابر 9 در نظر گرفته شد که بیان کننده اين است که خودروي تعقیب کننده شتاب خودروي جلويي را به درستي تخمین مي زند ]39[. ۱ ۲ ۳ ۴... شکل 2- ترتیب فازها سرعت مطلوب يک راننده 900 کیلومتر بر ساعت و حداکثر سرعت مجاز خیابان نیز 50 کیلومتر بر ساعت و میزان تبعیت از حداکثر سرعت مجاز 9.3 باشد. حداکثر سرعت حرکت خودروي فرضي برابر V=min(100,1.3*50)=65km/ خواهد شد. اما بايد توجه نمود که سرعت 15 کیلومتر بر ساعت حداکثر سرعتي است که يک خودروي فرضي با مشخصات داده شده مي تواند برود اما اگر خودروي جلويي آن داراي سرعت کمتري باشد ناچار به کاهش سرعت و يا سبقت گرفتن است. -3-1-4 يادگير چراغ هاي راهنمايي به عنوان عامل هاي شکل 3- شبکه ترافیکي متشکل از 1 تقاطع سرعت حرکت يک خودرو براساس چهار فاکتور سرعت مطلوب راننده حداکثر سرعت مجاز خیابان ها میزان تبعیت از حداکثر سرعت مجاز خیابان ها و سرعت حرکت خودروي جلويي تعیین مي شود. به عنوان مثال فرض که نمايید چراغ هاي راهنمايي در هر تقاطع در ابتداي هر فاز وضعیت ترافیکي تقاطع )حالت محیط( را بررسي نموده و بر اساس دانش کسب شده از محیط مدت زمان سبز بودن آن فاز را مشخص مي کنند. در انتهاي هر فاز بر اساس تعداد ماشین هاي عبوري از هر تقاطع مشخص مي شود که آيا مدت زمان سبز مناسب بوده يا خیر چراغ هاي ۱ Driver Reaction Time ۲ Reaction Time of Stop 240
عملگر- نقاد براي يادگیري و تجربه اندوزي خود از محیط استفاده مي کنند. وضعیت ترافیکي هر تقاطع شامل يک بردار است که هر المان آن تعداد خودروها در مسیرهاي ورودي به تقاطع را نشان مي دهد. در سناريوي اول )تقاطع منفرد( تعداد خودروها در هر مسیر ورودي به تقاطع در بازه [910 و 0] قرار دارند اما در سناريوي دوم )1 تقاطع( به دلیل کوتاه بودن طول خیابان ها تعداد خوردوها در هر مسیر ورودي در بازه [80 و 0] قرار دارند. مهمترين مزيت اين تعريف اين است که بار ترافیکي به نوعي در تعريف وضعیت محیط کد مي شود. ديگر مزيت اين تعريف مديريت کردن خودروهاي پرسرنشین است. به عنوان مثال مي توان به اتوبوس ها يا خودروهاي پرسرنشین ضريب باالتري را نسبت داد و با اين روش اهمیت بیشتري به وسايل نقلیه عمومي داده مي شود. همچنین شماره فاز جاري چراغ راهنمايي به عنوان يک المان ديگر در حالت محیط گنجانده مي شود. در معماري عملگر نقاد حالت هاي محیط بايد به صورت گسسته لحاظ شوند بنابراين در سناريوي اول تعداد خودروها در هر مسیر ورودي به دسته هاي خطي با طول 90 يعني [920-930-940-950- 30-40-50-10-70-80-10-900-990] و در سناريوي دوم تعداد خودروها در هر مسیر ورودي به دسته هاي خطي با طول 95 يعني [5-20-35-50-15] افراز شدند. علت تفاوت طول دسته ها در سناريوي اول با سناريوي 9 کمتر مي باشد. دوم صرفا اشغال حافظه مقادير} 10 و 80 و 70 و 10 و 50 و 40 و 30 و 20 {ثانیه به عنوان اعمال عامل )مدت زمان سبز بودن هر فاز( در نظر گرفته شدند. جدول Q در سناريوي اول داراي 4 4 94 سطر و 1 ستون و در سناريوي دوم براي هر عامل داراي 4 4 1 سطر و 1 ستون مي باشد. اختالف تعداد خودروها قبل و بعد از هر فاز در همه مسیرهاي ورودي به عنوان مکانیزم پاداش دهي در نظر گرفته شده است. نرخ يادگیري در نقاد برابر 0.2 و در عملگر برابر با 900 انتخاب شد. سیاست مورد استفاده در هر دو سناريو نشريه علمي- پژوهشي علوم و فنون نقشه برداري دوره پنجم شماره 3 بهمن ماه 9314 ε-greedy مي باشد و مقدار مطابق رابطه ε يادگیري تمايل بیشتري براي عملکرد تصادفي دارد و در طول يادگیري سیاست آن به سمت حريصانه میل ميکند. ε t+1 = ε t 1.0036, ε 0 = 0.7 )8( 5- نتايج در اين تحقیق معیارهاي متوسط زمان تاخیر 2 متوسط 4 و انحراف از معیار زمان زمان توقف 3 متوسط طول صف تاخیر براي بررسي عملکرد معماري عملگر نقاد الندا بکار گرفته شدند. معیار اول نشان دهنده زمان تاخیر براي هر ماشین در هر کیلومتر مي باشد که اين مقدار از اختالف بین زمان سفر در شرايط ايده آل و بدون ترافیک و زمان سفر در شرايط ترافیکي محاسبه مي شود معیار دوم نشان دهنده متوسط زمان توقف هر ماشین در هر کیلومتر است معیار سوم نشان دهنده متوسط تعداد ماشین هايي که در هر خط در هر مسیر ورودي قرار گرفته اند و معیار چهارم مشخص کننده عدالت و مساوات الگوريتم بین خودروها است. شکل 4 عملکرد چراغ راهنمايي هوشمند را براي چهار معیار فوق در طول 800 ساعت شبیه سازي نشان مي دهد. خطوط نازک از میانگین گیري نتايج 5 بار پیاده سازي و خطوط ضخیم از میانگین گیري خطوط نازک در بازه هاي 99 ساعته بدست آمده اند. 8 در طول يادگیري تغییر مي کند. عامل در ابتداي ۲ Delay Time ۳ Stop Time ٤ Queue Lengt ۱ RAM 241
يادگیري تقويتي براساس معماري عملگر- نقاد در سیستم هاي چند شکل 4- عملکرد چراغ راهنمايي در طول روند يادگیري در سناريوي اول... براي ارائه بهتر نتايج در جدول 9 متوسط مقادير زمان تاخیر زمان توقف طول صف و انحراف از معیار زمان تاخیر براي 900 اپیزود انتهايي )700 تا 800( که در آنها عامل به صورت حريصانه عمل مي نمايد آورده شده است. جدول 9- عملکرد چراغ راهنمايي در اپیزودهاي 700 تا 800 در سناريوي اول 998.131 908.991 998.131 4.197 4.141 4.780 4.571 5 شکل متوسط زمان تاخیر )ثانیه/کیلومتر( متوسط زمان توقف )ثانیه/کیلومتر( انحراف از معیارزمان تاخیر )ثانیه/کیلومتر( متوسط طول صف براي مسیر ورودي غرب به شرق متوسط طول صف براي مسیر ورودي جنوب به شمال متوسط طول صف براي مسیر ورودي شرق به غرب متوسط طول صف براي مسیر ورودي شمال به جنوب 1 عملکرد کلي چراغ راهنمايي هوشمند را براي 800 ساعت شبیه سازي نشان مي دهد )سناريوي دوم(. خطوط نازک از میانگین گیري نتايج بار پیاده 5 سازي و خطوط ضخیم از میانگین گیري خطوط نازک در بازه هاي 99 ساعته بدست آمده اند. شکل 5- عملکرد 1 چراغ راهنمايي در طول روند يادگیري در سناريوي دوم براي ارائه بهتر نتايج متوسط مقادير زمان تاخیر زمان توقف طول صف و انحراف از معیار زمان تاخیر براي 900 اپیزود انتهايي )700 تا 800( که عامل ها در آن بازه به صورت حريصانه عمل مي کنند در جدول 2 آورده شده است. جدول 2- عملکرد 1 چراغ راهنمايي در اپیزودهاي 700 تا 800 در 300.412 271.455 4.138 915.989 سناريوي دوم متوسط زمان تاخیر )ثانیه/کیلومتر( متوسط زمان توقف )ثانیه/کیلومتر( متوسط طول صف انحراف از معیارزمان تاخیر )ثانیه/کیلومتر( 6- بحث و اعتبار سنجي نتايج به منظور اعتبار سنجي روش ارائه شده نتايج آن با روش رايج زمان بندي در مهندسي ترافیک: چراغهاي پیش زمانبندي شده مقايسه شدند. چراغ هاي پیش زمان بندي شده چراغ هايي هستند که زمانبندي از پیش تعیین شده و معلومي را بدون توجه به تغییرات شرايط واقعي ترافیک لحاظ مي کنند. شکل 1 عملکرد روش زمان 242
ثابت را با يادگیري تقويتي عملگر- نقاد بر اساس شاخص هاي مختلف مقايسه مي کند. نشريه علمي- پژوهشي علوم و فنون نقشه برداري دوره پنجم شماره 3 بهمن ماه 9314 شکل 1- مقايسه عملکرد روش زمان ثابت و يادگیري تقويتي عملگر- نقاد براي سناريوي هاي اول و دوم در شکل 1 زمان سفر عبارت است از میانگین زماني که يک خودرو نیاز دارد تا يک کیلومتر را در شبکه طي نمايد. متوسط زمان سفر در هر ساعت از متوسط گیري زمان سفر خودروها براي ساعت هاي 700 تا 800 بدست مي آيد. متوسط سرعت نشان دهنده متوسط سرعت کلیه خودروها در طول مسیر حرکتشان مي باشد. همانطور که مشخص است تمامي شاخص ها بهبود يافته اند. 7- نتيجه گيري افزايش تقاضا براي جابه جايي در جوامع بشري باعث ايجاد چالش هاي متعددي در مهندسي ترافیک شده است. در اغلب مواقع اضافه نمودن زير ساخت هاي جديد )به عنوان مثال احداث خیابان هاي جديد( همواره ممکن نبوده و استفاده بهینه تر از زير ساخت هاي حمل و نقل 243
يادگیري تقويتي براساس معماري عملگر- نقاد در سیستم هاي چند... موجود احساس مي شود. کنترل و مديريت ترافیک به دلیل ذات توزيع يافتگي آن ارتباط نزديکي با مفاهیم و اصول سیستم هاي چند عامله دارد زيرا به عنوان مثال خودروها عابرين پیاده و چراغ هاي راهنمايي را مي توان به عنوان عامل هاي خودمختار در نظر گرفت. استفاده از سیستم هاي چند عامله در کنترل ترافیک همواره با چالش هاي فراواني روبه رو هستند از جمله اينکه عامل ها به تغییرات در محیط در محدوده ديدشان واکنش نشان مي دهند که همین امر منجر به الگوهاي ترافیکي متفاوت مي شود. بنابراين استفاده از روش هاي رايج و اولیه در مراجع سیستم هاي چند عامله لزوما به نتايج مطلوبي منجر نخواهد شد. در اين تحقیق سعي شده است که از يادگیري تقويتي براي حل چالش فوق به گونه اي استفاده شود که عامل هاي يادگیر )چراغ هاي راهنمايي( به تغییرات ترافیکي در محدوده عملکردشان واکنش مناسب را که از تجربیات قبلي بدست آورده اند نشان دهند. نتايج اين تحقیق نشان داد که کنترل هوشمند چراغ هاي راهنمايي منجر به کاهش متوسط طول صف زمان سفر در مقايسه با روش هاي غیر هوشمند شده است. [1] J. H. Holland, (1992). "Complex Adaptive Systems." Daedalus. Vol. 121, No. 1, PP. 17-30. [2] S. M. Manson, (2001). "Simplifying complexity: a review of complexity teory." Geoforum. Vol. 32, No. 3, PP. 405-414. [3] M. Wooldridge, (2009)."An Introduction to MultiAgent Systems - Second Edition." London: Jon Wiley & Sons. [4] R. Itami, R. Raulings, G. MacLaren, K. Hirst, R. Gimblett, D. Zanon, and P. Cladek, (2003). "RBSim 2: simulating te complex interactions between uman movement and te outdoor recreation environment." Journal for Nature Conservation. Vol. 11, No. 4, PP. 278 286. [5] D. A. Bennett and W. Tang, (2006). "Modelling adaptive, spatially aware, and mobile agents: Elk migration in Yellowstone." International Journal of Geograpical Information Science. Vol. 20, No. 9, PP. 1039-1066. [6] R. Sad, M. S. Mesgari, H. Ebadi, A. Alimoammadi, A. Abkar, and A. Vafaeenezad, (2009). "An Intelligent Fuzzy Agent for Spatial Reasoning in GIS." Advances in Artificial Intelligence. Vol. 5803, No. PP. 639-647. [7] S. Bezadi and A. A. Aleseik, (2013). "Introducing a novel model of belief-desire-intention agent for urban land use planning." Engineering Applications of Artificial Intelligence. Vol. 26, No. 9, PP. 2028-2044. [8] S. Bezadi and A. A. Aleseik, (2013). "Hospital Site Selection Using a BDI Agent Model." International Journal of Geograpy and Geology. Vol. 2, No. 4, PP. 36-51. [9] R. S. Sutton and A. G. Barto, (1998)."Introduction to Reinforcement Learning." Cambridge, MA: MIT Press. [10] V. R. Konda and J. N. Tsitsiklis, (2003). "On Actor-Critic Algoritms." SIAM Journal on Control and Optimization. Vol. 42, No. 4, PP. 1143 1166. [11] I. Grondman, L. Busoniu, G. A. D. Lopes, and R. Babuska, (2012). "A Survey of Actor-Critic Reinforcement Learning: Standard and Natural Policy Gradients " IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews. Vol. 42 No. 6, PP. 1291-1307 [12] D. I. Robertson, "TRANSYT: A traffic network study tool," Road Researc Laboratory Report London1969. [13] P. B. Hunt, D. I. Robertson, R. D. Breterton, and R. I. Winton, "SCOOT - a traffic responsive metod of coordinating signals," Crowtorne, U.K.1981. [14] A. G. Sims and K. W. Dobinson, (1980 ). "Te Sydney coordinated adaptive traffic (SCAT) system pilosopy and benefits." IEEE Transactions on Veicular Tecnology. Vol. 29, No. 2, PP. 130-137 [15] N. H. Gartner, (1983). "OPAC: A demand-responsive strategy for traffic signal control." Transportation Researc Record: Journal of te Transportation Researc Board. Vol. 906, No. PP. 75 81. [16] J. J. Henry, J. L. Farges, and J. Tufal, (1983). "Te PRODYN real-time traffic algoritm." in Proceedings of te 5t IFAC/IFIP/IFORS Symposium on Control in Transportation Systems, Baden-Baden, Germany. [17] K. L. Head, P. B.Mircandani, and D. Seppard, (1992). "Hierarcical framework for real-time traffic control." Transportation Researc Record. Vol. 1360, No. PP. 82 88. 244
نشريه علمي- پژوهشي علوم و فنون نقشه برداري دوره پنجم شماره 3 بهمن ماه 9314 [18] A. L. C. Bazzan, (2009). "Opportunities for multiagent systems and multiagent reinforcement learning in traffic control." Autonomous Agents and Multi-Agent Systems Vol. 18, No. 3, PP. 342-375. [19] M. Wiering, (2000). "Multi-agent reinforcement learning for traffic ligt control." presented at te 17t International Conference on Macine Learning, Stanford,CA. [20] B. Abdulai, R. Pringle, and G. J. Karakoulas, (2003). "Reinforcement learning for true adaptive traffic signal control." Journal of Transportation Engineering. Vol. 129, No. 3, PP. 278 285. [21] E. Camponogara and W. J. Kraus, (2003). "Distributed Learning Agents in Urban Traffic Control." in Proceedings of te 11t Portuguese Conference on Artificial Intelligence Beja, Portugal, pp. 324-335. [22] M. C. Coy, D. Srinivasan, and R. L. Ceu, (2003). "Cooperative, ybrid agent arcitecture for real-time traffic signal control." IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans. Vol. 33, No. 5, PP. 597-607. [23] L. Bull, J. Sa Aban, A. Tomlinson, J. D. Addison, and B. G. Heydecker, (2004). "Towards Distributed Adaptive Control for Road Traffic Junction Signals using Learning Classifier Systems." in Applications of Learning Classifier Systems. vol. 150, L. Bull, Ed., ed Berlin Heidelberg: Springer PP. 276-299. [24] K. Dresner and P. Stone, (2004). "Multiagent traffic management: A reservation-based intersection control mecanism." in Proceedings of te Tird International Joint Conference on Autonomous Agents and Multiagent Systems, New York, pp. 530 537. [25] J. C. Medina, A. Hajbabaie, and R. F. Benekoal, (2010). "Arterial traffic control using reinforcement learning agents and information from adjacent intersections in te state and reward structure." presented at te 13t International IEEE Conference on Intelligent Transportation Systems (ITSC), Funcal. [26] D. Houli, L. Zieng, and Z. Yi, (2010). "Multiobjective Reinforcement Learning for Traffic Signal Control Using Veicular Ad Hoc Network." EURASIP Journal on Advances in Signal Processing. Vol. 2010, No. PP. 7-17. [27] M. v. Otterlo and M. Wiering, (2012). "Reinforcement Learning and Markov Decision Processes." in Reinforcement Learning State-of-te-Art, M. Wiering and M. v. Otterlo, Eds., ed Berlin Heidelberg: Springer Berlin Heidelberg, PP. 3-42. [28] A. Reuscel, (1950). "Veicle movements in a platoon wit uniform acceleration or deceleration of te lead veicle." Zeitscrift des Oesterreiciscen Ingenieur-und Arcitekten-Vereines. Vol. 95, No. PP. 59-62 and 73-77. [29] R. Tao, H. Wei, Y. Wang, and V. Sisiopiku, (2005). "Modeling Speed Disturbance Absorption Following Current State-Control Action-Expected State Cains: Integrated Car-Following and Lane-Canging Scenarios." Transportation Researc Record: Journal of te Transportation Researc Board. Vol. 1934, No. PP. 83-93. [30] S. Moridpour, M. Sarvi, and G. Rose, (2010). "Modeling te lane canging execution of multi class veicles under eavy traffic conditions. " Transportation Researc Record. No. 2161, PP. 11-19. [31] P. G. Gipps, (1981). "A beavioural car-following model for computer simulation." Transportation Researc Part B: Metodological. Vol. 15, No. 2, PP. 105 111. 245